iT邦幫忙

2023 iThome 鐵人賽

DAY 9
0
AI & Data

生資的路且重且遠,我要被鴨垮了Q系列 第 9

Day9. Fastq & FASTA & SAM & BAM & CRAM & VCF--資料格式

  • 分享至 

  • xImage
  •  

好了~ 介紹到這邊,我們還沒有介紹數據怎麼儲存。

不同行業和領域都有其自己的標準和數據體系,生物信息學數據分析也不例外。
在生物信息學中,各種生物數據處理步驟產生了多種中間文件,其中一些已經被規定成了標准文件格式。雖然不需要詳細記住所有這些格式的細節,但有些格式是非~常常用的,值得我們更詳細地了解。
生物信息學中常見的數據存儲格式包括FASTQ、FASTA、SAM、BAM、CRAM、VCF等,每種格式都有其獨特的用途和特點。以下是這些格式的詳細介紹:

  1. FASTQ(文本文件):

    • 用途:FASTQ是存儲測序數據的標準格式,通常包含測序reads的鹼基序列以及與之關聯的質量分數。它是從Illumina、Ion Torrent等平台生成的測序數據的常見輸出格式。
      • 沒錯NGS 機器下機後,測序出來的結果,一堆ATCG的資料儲存,這就是我們的raw data!
    • 特點:每條reads由四行組成,包括標識符、鹼基序列、描述符(通常是加號),和質量分數。
  2. FASTA(文本文件):

    • 用途:FASTA格式用於存儲生物序列信息,如DNA、RNA或蛋白質序列。這是最常見的序列數據存儲格式之一。
      • 白話來說就是我們的 reference sequence
    • 特點:FASTA文件包含序列的描述行以及相應的鹼基或氨基酸序列。它通常以大多數生物信息學工具支持的標準格式存在。
  3. SAM(文本文件):

    • 用途:Sequence Alignment/Map(SAM)格式用於存儲測序reads的比對結果,將reads與參考基因組上的位置關聯起來。
      • 為BWA工具output 出來的結果 (之後慢慢說)
    • 特點:SAM文件包含比對信息、標識符、鹼基序列等,並可讀性較好。但對於大規模比對數據,SAM文件very large。
  4. BAM(二進製文件):

    • 用途:Binary Alignment/Map(BAM)是SAM格式的二進製版本,用於存儲大規模測序比對數據。它在存儲效率和處理速度上優於SAM。
      • 為了後續生資分析的步驟,我們會把sam檔轉成bam檔
    • 特點:BAM文件是二進制格式,更緊湊,更適合存儲和處理大規模測序數據,檔案大小也是large。
  5. CRAM(二進製文件):

    • 用途:CRAM(Compressed Random-Accessible Mapping)是一種高度壓縮的比對文件格式,通常用於存儲大規模測序比對數據以節省存儲空間。
      • 因為人體的資料太龐大了,所以要一個更好的方式存儲,壓縮空間
    • 特點:CRAM通過壓縮和索引技術實現高效的存儲,但需要專門的軟體支持,通常用於長期的儲存。
  6. VCF(文本文件):

    • 用途:Variant Call Format(VCF)用於存儲基因組的變異信息,如單核苷酸變異(SNV)和插入/缺失(Indel)等。
      • 這是生資分析的末端產物,有raw data 跟reference genome 對比出來的variant
    • 特點:VCF文件包含變異的位置、基因型信息以及質量評分等。它是在基因組學和遺傳學研究中廣泛使用的格式。

這些格式在生物信息學中扮演著關鍵的角色,研究人員和生物信息學家可以根據其研究需求選擇適當的格式來存儲和處理不同類型的生物數據。每種格式都有其自己的工具和library,以便進行數據分析和解釋。

怎麼讀寫儲存呢

其實有一些python 的library
EX: pysam

Bear的小murmur

好猶豫阿,要不要展開講講這些檔案儲存什麼資訊,還有更細緻的差別,因為好像要講,才知道之後生資分析每個步驟產出來的這些檔案代表些什麼......


上一篇
Day8. WGS & WES & Panel(target sequence)
下一篇
Day10. 資料格式展開說說
系列文
生資的路且重且遠,我要被鴨垮了Q30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言